下文|下游_数仓学习|几种常见的数据同步方式

作者：閆小恰 | 来源：互联网 | 2023-05-19 08:20

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数仓学习|几种常见的数据同步方式相关的知识，希望对你有一定的参考价值。目录前言&＃xff08;1&＃xff09;常见数据同步方式&＃xff08;

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数仓学习|几种常见的数据同步方式相关的知识，希望对你有一定的参考价值。

前言

数据仓库的特性之一是集成&＃xff0c;即首先把未经过加工处理的、不同来源的、不同形式的数据同步到ODS层&＃xff0c;一般情况下&＃xff0c;这些ODS层数据包括日志数据和业务DB数据。对于业务DB数据而言(比如存储在mysql中)&＃xff0c;将数据采集并导入到数仓中(通常是Hive或者MaxCompute)是非常重要的一个环节。

那么&＃xff0c;该如何将业务DB数据高效准确地同步到数仓中呢&＃xff1f;

一般企业会使用两种方案&＃xff1a;

直连同步
实时增量同步(数据库日志解析)

其中直连同步的基本思路是直连数据库进行SELECT&＃xff0c;然后将查询的数据存储到本地文件作为中间存储&＃xff0c;最后把文件Load到数仓中。这种方式非常的简单方便&＃xff0c;但是随着业务的发展&＃xff0c;会遇到一些瓶颈&＃xff0c;具体见下文分析。

为了解决这些问题&＃xff0c;一般会使用实时增量的方式进行数据同步&＃xff0c;其基本原理是CDC (Change Data Capture) &＃43; Merge&＃xff0c;即实时Binlog采集 &＃43; 离线处理Binlog还原业务数据这样一套解决方案。

&＃xff08;1&＃xff09;常见数据同步方式

&＃xff08;1.1&＃xff09;直连同步

直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库&＃xff0c;比如ODBC/JDBC等规定了统一的标准接口&＃xff0c;不同的数据库基于这套标准提供规范的驱动&＃xff0c;从而支持完全相同的函数调用和SQL实现。比如经常使用的Sqoop就是采取这种方式进行批量数据同步的。

直连同步的方式配置十分简单&＃xff0c;很容易上手操作&＃xff0c;比较适合操作型业务系统的数据同步&＃xff0c;但是会存在以下问题&＃xff1a;

数据同步时间&＃xff1a;随着业务规模的增长&＃xff0c;数据同步花费的时间会越来越长&＃xff0c;无法满足下游数仓生产的时间要求。
性能瓶颈&＃xff08;关键&＃xff09;&＃xff1a;直连数据库查询数据&＃xff0c;对数据库影响非常大&＃xff0c;容易造成慢查询&＃xff0c;如果业务库没有采取主备策略&＃xff0c;则会影响业务线上的正常服务&＃xff0c;如果采取了主备策略&＃xff0c;虽然可以避免对业务系统的性能影响&＃xff0c;但当数据量较大时&＃xff0c;性能依然会很差。

&＃xff08;1.2&＃xff09;实时增量同步&＃xff08;日志解析&＃xff09;

所谓日志解析&＃xff0c;即解析数据库的变更日志&＃xff0c;比如MySQL的Binlog日志&＃xff0c;Oracle的归档日志文件。通过读取这些日志信息&＃xff0c;收集变化的数据并将其解析到目标存储中即可完成数据的实时同步。这种读操作是在操作系统层面完成的&＃xff0c;不需要通过数据库&＃xff0c;因此不会给源数据库带来性能上的瓶颈。

数据库日志解析的同步方式可以实现实时与准实时的同步&＃xff0c;延迟可以控制在毫秒级别的&＃xff0c;其最大的优势就是性能好、效率高&＃xff0c;不会对源数据库造成影响&＃xff0c;目前&＃xff0c;从业务系统到数据仓库中的实时增量同步&＃xff0c;广泛采取这种方式。当然&＃xff0c;这种方式也会存在一些问题&＃xff0c;比如批量补数时造成大量数据更新&＃xff0c;日志解析会处理较慢&＃xff0c;造成数据延迟。除此之外&＃xff0c;这种方式比较复杂&＃xff0c;投入也较大&＃xff0c;因为需要一个实时的抽取系统去抽取并解析日志&＃xff0c;下文会对此进行详细解释。

如上图所示架构&＃xff0c;在直连同步基础之上增加了流式同步的链路&＃xff0c;经过流式计算引擎把相应的 Binlog 采集到 Kafka&＃xff0c;同时会经过一个 Kafka 2Hive 的程序把它导入到原始数据&＃xff0c;再经过一层 Merge&＃xff0c;产出下游需要的 ODS 数据。

上述的数据集成方式优势是非常明显的&＃xff0c;把数据传输的时间放到了 T&＃43;0 这一天去做&＃xff0c;在第二天的时候只需要去做一次 merge 就可以了。非常节省时间和计算资源。

两种数据同步方式比较&＃xff1a;

&＃xff08;2&＃xff09;流式数据集成实现

实现思路

首先&＃xff0c;采用Flink负责把Kafka上的Binlog数据拉取到HDFS上&＃xff0c;生成增量表。

然后&＃xff0c;对每张ODS表&＃xff0c;首先需要一次性制作快照&＃xff08;Snapshot&＃xff09;&＃xff0c;把MySQL里的全量数据读取到Hive上&＃xff0c;这一过程底层采用直连MySQL去Select数据的方式&＃xff0c;可以使用Sqoop进行一次性全量导入&＃xff0c;生成一张全量表。

最后&＃xff0c;对每张ODS表&＃xff0c;每天基于全量数据和当天增量产生的Binlog做Merge&＃xff0c;从而还原出业务数据。

Binlog是流式产生的&＃xff0c;通过对Binlog的实时采集&＃xff0c;把部分数据处理需求由每天一次的批处理分摊到实时流上。无论从性能上还是对MySQL的访问压力上&＃xff0c;都会有明显地改善。Binlog本身记录了数据变更的类型&＃xff08;Insert/Update/Delete&＃xff09;&＃xff0c;通过一些语义方面的处理&＃xff0c;完全能够做到精准的数据还原。

关于Binlog解析部分&＃xff0c;可以使用canal工具&＃xff0c;采集到Kafka之后&＃xff0c;可以使用Flink解析kafka数据并写入到HDFS上&＃xff0c;解析kafka的数据可以使用Flink的DataStreamAPI&＃xff0c;也可以使用FlinkSQL的canal-json数据源格式进行解析&＃xff0c;使用FlinkSQL相对来说是比较简单的。下面是canal-json格式的kafka数据源。

CREATE TABLE region ( id BIGINT, region_name STRING ) WITH ( &＃39;connector&＃39; &＃61; &＃39;kafka&＃39;, &＃39;topic&＃39; &＃61; &＃39;mydw.base_region&＃39;, &＃39;properties.bootstrap.servers&＃39; &＃61; &＃39;kms-3:9092&＃39;, &＃39;properties.group.id&＃39; &＃61; &＃39;testGroup&＃39;, &＃39;format&＃39; &＃61; &＃39;canal-json&＃39; , &＃39;scan.startup.mode&＃39; &＃61; &＃39;earliest-offset&＃39; );

数据解析完成之后&＃xff0c;下面的就是合并还原完整数据的过程&＃xff0c;关于合并还原数据&＃xff0c;一种比较常见的方式就是全外连接(FULL OUTER JOIN)。具体如下&＃xff1a;

生成增量表与全量表的Merge任务&＃xff0c;当天的增量数据与昨天的全量数据进行全外连接&＃xff0c;该Merge任务的基本逻辑是&＃xff1a;

INSERT OVERWRITE TABLE user_order PARTITION(ds&＃61;&＃39;20211012&＃39;) SELECT CASE WHEN n.id IS NULL THEN o.id ELSE n.id END ,CASE WHEN n.id IS NULL THEN o.create_time ELSE n.create_time END ,CASE WHEN n.id IS NULL THEN o.modified_time ELSE n.modified_time END ,CASE WHEN n.id IS NULL THEN o.user_id ELSE n.user_id END ,CASE WHEN n.id IS NULL THEN o.sku_code ELSE n.sku_code END ,CASE WHEN n.id IS NULL THEN o.pay_fee ELSE n.pay_fee END FROM ( SELECT * FROM user_order_delta WHERE ds &＃61; &＃39;20211012&＃39; AND id IS NOT NULL AND user_id IS NOT NULL ) n FULL OUTER JOIN (-- 全外连接进行数据merge SELECT * FROM user_order WHERE ds &＃61; &＃39;20211011&＃39; AND id IS NOT NULL AND user_id IS NOT NULL ) o ON o.id &＃61; n.id AND o.user_id &＃61; n.user_id ;

经过上述步骤&＃xff0c;即可将数据还原完整。

以上内容仅供参考学习&＃xff0c;如有侵权请联系我删除&＃xff01;
如果这篇文章对您有帮助&＃xff0c;左下角的大拇指就是对博主最大的鼓励。
您的鼓励就是博主最大的动力&＃xff01;

推荐阅读

api
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
api
以Flink为例，消除流处理常见的六大谬见

以Flink为例，消除流处理常见的六大谬见 ... [详细]

蜡笔小新 2024-10-08 12:59:58
instance
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
object
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
instance
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
select
SQL 连接详解与应用

本文详细介绍了 SQL 连接的概念、分类及实际应用，包括内连接、外连接、自连接等，并提供了丰富的示例代码。 ... [详细]

蜡笔小新 2024-11-13 19:36:28
int
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
controller
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
object
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
char
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
object
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
python
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
int
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09

閆小恰

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章